Scalling law（Kaplan et al., 2020）

@bioshok3: 今まで何で大規模言語モデルなんて2020年からあったのに2022年になって何でまた盛んに話題になったんだろう、と若干腑に落ちてなかったが、そうか、2022年からCoTが出てきていきなり精度が上がり（引用者注：Emergent Ability：データをデカくすると突然性能が良くなる (2022)）、その原因として「コード学習」があるかもという考察が以下の引用記事でOpenAIは千人コーダー雇ってると

https://pbs.twimg.com/media/Fn8SP_hakAISYoZ.jpg

横軸と縦軸なんなの？

横軸はパラメータ数だろう

［2001.08361］ Scaling Laws for Neural Language Models

2020

Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei

Gemini 3.0.iconモデルが大きくなるほど「次にくる単語を当てる」という基本タスクが正確になる